بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر با استفاده از شکل دهی کنش ها
پایان نامه
- دانشگاه تربیت معلم - تهران - دانشکده فنی
- نویسنده فیروزه حجازی
- استاد راهنما میرمحسن پدرام
- سال انتشار 1393
چکیده
هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در مشاهده ها، انتقال حالت ها و محیط باشد)، که تصمیم گیری در این محیط دشوارتر از حالت رویت پذیر خواهد بود و پیدا کردن سیاست بهینه در این حالت از پیچیدگی و سربار محاسبه ای بالایی برخوردار خواهد بود. یکی از راه حل های پیشنهاد شده برای یادگیری وظایف پیچیده، روش شکل دهی است. دیدگاه مطرح در این روش آن است که عامل یادگیرنده از کارهای ساده آغاز کند و به تدریج بر پیچیدگی کارها تا حل وظیفه اصلی بیافزاید و این فرآیند یادگیری را ادامه دهد. فرآیند افزایش تدریجی پیچیدگی به صورت قابل ملاحظه ای سختی این گونه مسائل یادگیری را کاهش می دهد. هدف این پایان نامه ارائه روشی مبتنی بر شکل دهی کنش ها به منظور بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر است. نتایج به دست آمده از آزمایش های مختلف نشان دهنده کارآیی توابع پیشنهادی این پایان نامه در محیط های تست مورد بررسی می باشد.
منابع مشابه
بهبود یادگیری تقویتی در محیط های نیمه روئیت پذیربا استفاده از شکل دهی پاداش ها
تا کنون روش های مختلفی برای حل مسائل یادگیری تقویتی ارائه شده است و در طول سال های اخیر تسریع روش های حل، یک مساله چالش برانگیز بوده است. برای حل مسائل یادگیری تقویتی از فرآیند تصمیم گیری مارکوف (mdp) استفاده می شود و تا کنون مطالعات زیادی برای بکاربردن روش های مختلف شکل دهی در این حوزه جهت تسریع فرآیند یادگیری انجام شده است، حال اگر با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در م...
بهبود عملکرد حمله در تیم رباتهای فوتبالیست با استفاده از یادگیری تقویتی
بهدلیل عدم امکان پیشبینی همه وضعیتهای ممکن برای عاملها در یک سیستم چندعاملهی پویا و گسترده، روشهای یادگیری ماشین، ابزار مناسبی برای کنترل رفتار عاملها میباشد. فوتبال شبیهسازی شده رباتها یک مسئله شناختهشده برای ارزیابی الگوریتمهای یادگیری ماشین روی سیستمهای چندعامله است. در این مقاله الگوریتم یادگیری کیو ـ وی (یکی از الگوریتمهای معروف یادگیری تقویتی) جهت بهبود عملکرد حمله در تیم رب...
متن کاملبهبود عملکرد عاملها در جامعه مصنوعی با استفاده از یادگیری تقویتی
چکیده معمولاً در سیستمهای چندعاملی، تعاملات بین عاملها و تعاملات عاملها با محیط، به صورت انتخاب و اجرای عملهایی از بین مجموعهای محدود از اَعمال مشخص توسط عاملها حاصل میشود. بنابراین نوع و میزان پیچیدگی رفتارهای پیدایشی حاصل از این تعاملات نیز به نحوه اجرا و تعداد رفتارهای قابل اجرا توسط عاملها وابسته است. در این پژوهش سعی شد با توسعه مدل کسب و انتقال تجربه و اضافه کردن قابلیت یادگیری به ...
متن کاملاثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین
Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...
متن کاملاثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین
Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...
متن کاملبهبود عملکرد لرزه ای قاب های با مهاربندی واگرا با بکارگیری المان شکل پذیر
پایدار و مقاوم بودن سازهها در برابر زلزله برای جلوگیری از تخریبهای کلی و یا جزئی و همچنین از دست رفتن سرمایه های مالی و جانی افراد و کشور، از اهمیت زیادی برخوردار میباشد. قابهای فولادی با مهاربندهای واگرا به عنوان یکی از سیستم های رایج مقاوم در برابر زلزله با شکل پذیری و سختی مناسب دارای آرایش های مختلفی بوده، که یکی از آن شامل اتصال تیر پیوند به ستون می باشد. این نوع اتصال، تا قبل از زلزله...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
دانشگاه تربیت معلم - تهران - دانشکده فنی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023